iT邦幫忙

2023 iThome 鐵人賽

DAY 11
1
AI & Data

2023 AI大型語言模型之旅 - 從0開始學習建構AI專案系列 第 11

生成式A.I.(AIGC)從0開始 - Embedding 介紹

  • 分享至 

  • xImage
  •  

什麼是Embedding?

Embedding是一種將物件(如單詞、句子或者其他資料)轉換成實數向量(一種數學表示)的技術。這個轉換過程使得計算機能夠更好地理解和處理這些物件。例如,在自然語言處理(NLP)中,單詞embedding可以幫助機器學習模型理解單詞之間的關係和含義。

Embedding在向量資料庫的應用

在向量資料庫中,embedding用來有效地存儲和檢索訊息。假設您有一個大量的文本資料庫,您想快速找到與特定查詢相關的文本。使用embedding技術,每個文本都被轉換成一個向量,並存儲在向量資料庫中。
當我們要進行查詢時,查詢也被轉換成一個向量。然後,通過計算查詢向量和資料庫中每個文本向量之間的相似度,可以迅速找到最相關的文本。

RAG(Retrieval-Augmented Generation)中的Embedding應用

我們前幾天提到RAG,它能用於回答問題或生成文本等。在RAG模型中,當用戶提出一個問題時,模型首先使用embedding技術將問題轉換為向量。然後,它在一個向量資料庫(包含大量先前學習或存儲的資訊)中檢索與問題相關的資訊。接著,根據檢索到的資訊,模型生成一個回答。

通過embedding和向量比較,RAG模型能夠迅速且準確地找到與問題相關的資訊,從而生成更準確和詳盡的回答。

聊天機器人中的Embedding應用

在聊天機器人應用中,embedding同樣發揮著重要作用。當用戶向聊天機器人發送一個訊息或問題時,聊天機器人使用embedding技術將訊息轉換為向量。這允許機器人理解訊息的含義並生成適當的回應。

例如,如果一個用戶問:“今天天氣如何?”聊天機器人會將這個問題轉換為一個向量,並與存儲在資料庫中的其他向量(代表不同的問題和回答)進行比較。根據這個比較,機器人能夠找到一個合適的回答並發送給用戶。

所以我們主要使用到embedding的地方

  • 把各種資料轉成向量存進向量資料庫
  • 使用者的問題轉成向量,進去向量資料庫做比較

如何使用embedding

市面上有多種embedding模型,像是專門訓練中文的,專門訓練特定文本的,
可以根據不同需求做選擇
那我們接下來會用OpenAI的embedding模型,他是用各式語料訓練沒有特定哪個方向
他跟GPT模型一樣有API可以直接做使用,非常方便


上一篇
生成式A.I.(AIGC)從0開始 - RAG 檢索增強生成介紹
下一篇
生成式A.I.(AIGC)從0開始 - Vector Database 向量資料庫介紹
系列文
2023 AI大型語言模型之旅 - 從0開始學習建構AI專案14
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言